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Параллельные вычисления 
на графических процессорах 


Рассматривается один из подходов сокращения времени вычислений хорошо распараллеливаемых алгоритмов, 
основанный на совместном использовании классических и графических процессоров. Проводится анализ 
эффективности такой организации вычислений и выясняются «узкие» места. На конкретных примерах 
показываются возможности подобного тандема и формулируются требования к алгоритмам для их 
эффективного исполнения. 


Введение 


Практически любая современная платформа исполнения программного кода, будь 
то полноценная операционная система или виртуальная машина (например, ГАУА маши- 
на или МЕТ Нате\уогк), поддерживающая мультизадачность, содержит набор АР], пред- 
назначенный для управления потоками и создания параллельных программ. Таким 
образом, имеется возможность организовать параллельные вычисления практически на 
любом языке от АззетЫег до скриптовых языков типа Рег. Ясно, что проектировать 
параллельные программы не всегда оправданное решение с точки зрения временных 
затрат и качества кода, так как на разработчика часто ложится множество специфических 
рутинных задач по созданию, управлению, контролю и обеспечению синхронизации по- 
токов выполнения. Речь идет, безусловно, о решении вычислительно трудных задач, так 
как прикладные программы создаются главным образом, используя АРТ платформы. 
На сегодняшний день имеются библиотеки и языки параллельного программирования, 
что упрощает множество проблем, предоставляя пользователю механизмы для органи- 
зации параллельных вычислений. Среди них можно отметить МРТ, РУМ, языки С1$а|, 
МЕБЗГ, РГ, Таха, а также расширение всевозможных языков программирования. 

В последнее время начали уделять внимание концепции СРОРО (Сепега]-ригрозе 
отар1с$ ргосеззше ип!) — технологии использования графического процессора видео- 
карты для общих вычислений, которые обычно выполняет центральный процессор. 

В связи с этим была поставлена следующая задача — исследовать возможности 
использования видеокарт для общих вычислений и оценить их эффективность. 

Цель работы — повышение скорости обработки хорошо распараллеливаемых 
алгоритмов на тандеме СРО + СРО и выяснение «узких» мест в этой технологии. 


Графические процессоры 


Универсальные устройства с многоядерными процессорами для параллельных 
векторных вычислений, используемых в ЗО-графике, достигают высокой пиковой 
производительности, которой не могут достичь универсальные процессоры. Конечно, 
максимальная скорость достигается на задачах определенного класса. 
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Рисунок 1 — Схема графического процессора АТ! Кадеоп Х1800 
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Примером такого параллельного процессора может служить процессор Се, раз- 
работанный альянсом Зопу-ТозШа-ШВМ и применяемый в игровой приставке Зопу Р1ау- 
Заноп 3, а также современные видеокарты от лидеров рынка — компаний Му1 а и АМО. 

Так, например, процесс формирования изображения в графическом процессоре АТИ 
Кадеоп Х1800 (рис. 1) выполняется следующим образом. Вначале данные (Уецех Рай) 
обрабатываются восемью вершинными процессорами для вычисления геометрии трех- 
мерного изображения. Затем блок сборки (зеар епоше) осуществляет растризацию 
геометрии, после чего идет процесс организации многопоточной обработки (блок Ога- 
Тргеадте О15рась Ргосеззог), т.е. распараллеливание шейдерного кода на многие сотни 
потоков. И, наконец, выполняют свои функции пиксельные процессоры. 


Необходимость перехода к процессорам 
общего назначения 


Анализ различных графических задач показал, что строгое закрепление функций 
за вершинными и пиксельными процессорами не эффективно. Действительно, если трех- 
мерные модели имеют насыщенную геометрию, то в основном используются вершинные 
процессоры, а если модель насыщена пиксельными эффектами, то основная работа от- 
водится пиксельным процессорам. Это, в основном, и послужило аргументацией для 
компании Му1Ча для перехода на процессоры общего назначения. Последние способны 
выполнять не только функции вершинных и пиксельных процессоров, но и выполнять 
различные расчетные работы общего назначения. 

Анализ шейдерных программ, применяемых Му1Ча и АТТ, показал неэффективность 
использования вычислительных ресурсов при векторной архитектуре исполнительных 
блоков. Это привело к пониманию необходимости перехода в унифицированных про- 
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цессорах к скалярным вычислениям, поручив работу по преобразованию векторных опе- 
раций в скалярные самому ОРЦ, что и было сделано компанией №1 Ча в графическом 
процессоре СеЕогсе 8800. Этот процессор содержит 128 потоковых унифицированных 
процессоров, каждый из которых работает с частотой 1,35 ГГц. 

Согласно архитектуре СеЕогсе 8800 входные данные (шриЁ зиеат) процессором 
обрабатываются, а его выход (ори збеат) идет на вход другого процессора для по- 
следующей обработки. Циклическая потоковая обработка позволяет, если необходимо, 
произвести повторную обработку данных, что встречается довольно часто в графических 
построениях, без повторного ввода исходных данных либо для их последующих пре- 
образований. 

Для 3) видеоускорителей несколько лет назад появились первые технологии не- 
графических расчетов. Современные видеочипы содержат сотни математических испол- 
нительных блоков, и эта мощь может использоваться для значительного ускорения мно- 
жества вычислительно интенсивных приложений. Нынешние поколения СОРИ обладают 
достаточно гибкой архитектурой, что вместе с высокоуровневыми языками программи- 
рования делает их значительно более доступными для сложных вычислений. 

Использование суперкомпьютеров для параллельных вычислений становится все 
более дорогим удовольствием. Кроме того, суперкомпьютеры требуют постоянной мо- 
дернизации для поддержки эффективности вычислений. В связи с этим происходит по- 
степенный перевод научных вычислений на другие платформы. Применение СРО 
процессоров позволяет повысить эффективность вычислений, используя специализиро- 
ванные библиотеки. Видеокарты достаточно дешевы, легко заменяемы и до определен- 
ных пределов их количество можно наращивать без особых трудностей. Так, например, 
специализированный графический процессор — ТЕЗГА С2070 (№у141а) имеет один СРО 
процессор, состоящий из 448 вычислительных ядер, работающих параллельно с 
пиковой производительностью 515 СЙор$, выполняя операции с плавающей точкой 
двойной точности или 1,03 ТЙор$ с одинарной точностью, снабжен 6СВ высоко- 
скоростной видеопамяти СООК5, работающей на частоте 1,5 СНй, при цене 3999$. 

Сегодня наиболее часто используются четыре платформы, реально воплотившие 
концепцию СРОРЦО. 

АМО ЕпеЗгеат — технология СРОРО, позволяющая программистам реализо- 
вывать алгоритмы, выполняемые на графических процессорах ускорителей АТИ. 

СОРА - технология ОРОРОИ, позволяющая реализовывать на языке программи- 
рования С алгоритмы, выполняемые на графических процессорах ускорителей СеЕогсе 
восьмого поколения и старше (СеЕогсе 8 Зепез, СеЕогсе 9 Зепез, деРогсе 200, 300, 400 
Зепез), Му1Ч1а Опаго4 и Му1Ча Теа компании №1. Технология СОЛА разработана 
компанией Му а. СОРА Тоо!Ки 3.0 (№у141а) поддерживает ОрепСГ.. 

Риес{Сотрие - набор интерфейсов программирования приложений (АР!) ком- 
пании Мисгозой является частью последних версий ОпесХ. Он предназначен для вы- 
полнения вычислений общего назначения на графических процессорах. Безусловно, он 
может использоваться и в игровой практике. Поддерживается компаниями АМР и Му а. 

ОрепСГ является языком программирования задач, связанных с параллельными 
вычислениями на различных графических и центральных процессорах. Язык програм- 
мирования базируется на стандарте С99. ОрепСГ, включает также интерфейс про- 
граммирования приложений и обеспечивает параллелизм на уровне инструкций и на 
уровне данных. 

Риес{Сотрие — интерфейс программирования приложений (АРТ), который входит 
в состав ОцшесёХ - набора АРГ от Мгозой, который предназначен для работы на 
ВМ РС-совместимых компьютерах под управлением операционных систем семейст- 
ва Мисгозой УЛи4о\. 
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Биес{Сотрие, появившись в составе ОтесёХ 11, по существу стал первой тех- 
нологией в составе ОпесйХ, предоставившей доступ к вычислениям общего на- 
значения на графических процессорах. 

Несмотря на ориентацию на неграфические вычисления общего назначения, Отес{- 
Сотрще может использоваться и в игровой графике, например, при рендеринге теней, 
рендеринге полупрозрачных поверхностей без предварительной сортировки, а также 
при обработке и фильтрации цифровых изображений, просчете алгоритмов игрового ис- 
кусственного интеллекта и для других задач. 

Следует отметить, что множество приложений по молекулярному моделированию 
хорошо приспособлено для расчетов на видеочипах. 

На сегодняшний день СРО предлагают высокую производительность. Так, напри- 
мер, СРО (Еуегогееп) позиционируют производительность до 10"? оп/с. Поэтому разумное 
использование тандема (СРО, СРИ) позволит существенно ускорить обработку боль- 
ших массивов данных. 

Основные различия между СРО и СРИ состоят в архитектурных решениях (по- 
токовая и топографическая) и организации памяти (иерархическая и модель с макси- 
мальной пропускной способностью). 

Однако широко используемые сегодня модели программирования СРО (СОРА 
и ОрепСГ.) являются низкоуровневыми, что требует от программиста значительных 
усилий по проектированию практически полного сценария обработки данных, в том 
числе в трансформации обычных программ и управления ресурсами. 

Типичная программа вычислений на СОРА выполняет следующие действия: 

— копирует необходимые данные из оперативной памяти СРО в оперативную 
память СРО; 

— задает размерность блоков вычислений, их количество и инициализирует про- 
цесс вычислений на СОДА; 

— каждый вновь появившийся поток копирует часть необходимых для выпол- 
нения блока данных в быструю разделяемую память; 

— выполняет вычисления; 

— копирует результаты выполнения в основную память СРО; 

— копирует результаты из памяти СОРИ в основную оперативную память компьютера. 


Технология общих вычислений 


В вычислительной модели СОДА графический процессор ОРУ можно рассматри- 
вать как сопроцессор к СРИ с собственной памятью, на который передаются вычисления 
для параллельной обработки большого числа потоков. При этом накладные расходы на 
управление параллельной обработкой на СРИ минимальны по сравнению с аналогич- 
ной акцией на СРИ. Ясно, что чем больше потоков будет обрабатываться на графиче- 
ских процессорах, тем эффективнее они будут использоваться. 

Обработка на СРО + СРИ осуществляется по следующей схеме (рис. 2). 

При этом СОВА предоставляет разработчику эффективных программистских 
проектов ряд функций, которые могут исполняться только на СРИ, так называемый 
СОРА [034 АРТ. 

Система СОРА обладает возможностью автоматического разбиения обрабатываемой 
части на потоки и управление ими. При этом все потоки организовываются в иерархию: 
все множество потоков (2119), блоки и отдельные потоки. Ясно, что взаимодействие между 
потоками лучше не допускать, чтобы стоимость обработки была минимальной. Но если 
такое взаимодействие необходимо, то в СОРА для этого есть два механизма: разделяемая 
(зВагеа) память; барьерная синхронизация. 
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Так как обработка потоков идет по технологии ЭМО, то фактически выполняется 
одна инструкция, но над различными данными. При этом исходная программа разра- 
батывается на «урезанном» С (нет операций ввода/вывода, ряд функций не поддержи- 
ваются и т. д.), а соответствующие файлы имеют расширение .си. Если некоторые 
функции могут выполняться как на СРО, так и на СРО, то соответствующие специфика- 
торы йо51 и 4емсе могут использоваться вместе. 

Компилятор автоматически сгенерирует код для обеих платформ. 


Исходная программа на подмножестве 


языка С со спепрасшпирением 


Интеграция результата 


Рисунок 2 — Структура обработки 
программ на тандеме СРИ + СРО 


Для каждого потока будут известны: индекс потока внутри блока (йтеа Ах, по 
умолчанию они предполагаются трехмерными) и индекс блока внутри сетей (МосЯах). 

Блок потоков выполняется на мультипроцессоре пулами, каждый из которых 
включает, как правило, 32 потока. При этом внутри пула одновременно может вы- 
полняться только одна инструкция. Пул разбивается на части, кратные количеству 
процессоров в мультипроцессоре и выполняются последовательно. Обмен данными 
между задачами внутри блока осуществляется через общую разделяемую память. 

Безусловно, возможны различные эвристики по взаимодействию процессов, но они 
учитывают особенности реальной аппаратуры и собственные системные наработки. 
В качестве последних можно использовать, например, среду реализации Сотлтоп Гапецазе 
Виинте (СЕВ) платформы „МЕТ. Это позволяет сделать реализацию преобразования ал- 
горитмов решения задач на СРИ независимой от платформы и языка программирования. 

Чтобы выполнить параллельные фрагменты на СРО необходимо: 

— загрузить модуль с необходимыми функциями для видеокарты; 

— выделить необходимый объем памяти на СОРИ: 

— скопировать данные из оперативной памяти в память видеокарты; 

— проинициировать функции из загруженного модуля, указав степень распараллели- 
вания; 

— обработать данные; 

— скопировать результаты из памяти СРИ в память СРО. 


Оценка эффективности обработки данных 


Из вышеперечисленных акций для работы на СОРИ оценим время обработки дан- 
ных, как ключевого момента эффективности, и всех вспомогательных акций. 

В случае сложения векторов ускорение обработки в зависимости от их размерности 
(от 8 до 256 элементов) на СОРИ по сравнению с СРИ показано на рис. 3. 
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Рисунок 3 — Ускорение обработки 


Эксперименты проводились на СРИ ш Соте 2 Рио с тактовой частотой 1.8 ОН 
и СОЦ №41 СЕЕОКСЕ 9600 СТ с количеством потоковых процессоров 64 и объемом 
разделяемой памяти 16384 байт. 

Что касается остальных этапов выполнения, то несравненно большее время за- 
нимает копирование данных из оперативной памяти СРО в память видеокарты и обратно, 
а также выделение памяти для решения поставленной задачи. 

Второй эксперимент был проведен на примере умножения трех и двух матриц с по- 
следующим их сложением (АВС - ПЕ). Соответствующее ускорение вычисления данной 
задачи для различных объемов исходных данных представлено в табл. 1. А удельный вес 
каждого этапа обработки при решении вышеизложенной задачи приведено в табл. 2. 


Таблица 1 — Общее время выполнения программы 


Отеп$1юп оЁ три ааа ОРЦ (п$) СРИ (п$) Зреед-ир (@тез) 

128х128 538309478 19226187 0,035715862 

256х256 494709803 129318391 0,261402524 

512х512 484937052 1015339380 2,093755006 

1024х1024 567429660 43473669698 76,61508159 

Таблица 2 — Время выполнения каждого этапа программы 

Метогу аПосайоп 546718 1,62% 
Сору ааа Вот В03{ ю деу1се 10042897 29,76% 
Ехесаноп 155327 0,46% 
Сору аа Нот 4еусе ю Во5 22239977 65,89% 
Сеап ир 766299 2,27% 


Из табл. | и 2 видно, что большую часть времени занимает операция копирования 
данных из памяти СРИ к видеокарте и обратная запись результата. Время непосред- 
ственной обработки занимает доли процента. 

Третий эксперимент проводился по обработке текста путем циклического сдвига 
на заданное количество бит при большом размере исходного массива. Он показывает, 
что 85 — 87% всего времени тратится на копирование в память процессоров. 
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25. Буза М.К. 


Требования к задачам 
для эффективного выполнения на СРО 


Анализ технологии обработки задач на видеокартах, архитектурных решений СРО 
и СРО, а также проведение ряда экспериментов на таком тандеме позволяет утверждать, 
что в первую очередь следует предлагать задачи, которые хорошо распараллеливаются 
на сотни потоков. Особо значимое ускорение можно получить, если одни и те же инст- 
рукции применяются к огромным массивам данных. 

Следующим требованием можно назвать отсутствие взаимодействий между об- 
рабатываемыми потоками или «слабое» взаимодействие. 

Среди остальных свойств задач (программ) для обработки на СОРИ можно назвать: 

— минимальное количество сложных для обработки операций: деление, возведение 
в отрицательную степень и т.д.; 

— отсутствие в алгоритмах множественного ветвления; 

— небольшой объем данных, передаваемых к видеокарте и от нее в оперативную 
память СРО. 

Безусловно, иногда указанные требования можно частично обойти за счет тщатель- 
ного анализа алгоритма решения задачи и создания дополнительных средств, снижающих 
влияние указанных и других требований на время полного цикла решения задач. Но все 
это надо делать необычайно корректно. 


Заключение 


Теоретические исследования и различные практические эксперименты показывают, 
что при тщательной подготовке алгоритмов и подборе соответствующих задач с боль- 
шими параллельно обрабатываемыми фрагментами время вычислений сокращается в 
десятки и сотни раз. Безусловно, следует потратить время на изучение технологии, 
постановки задач на СРО, но потраченное время дает затем значительный эффект. 

Особенно значимые результаты можно наблюдать при использовании тандема 
(СРО, ЧРИ) при достойном планировании ресурсов. 
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М.К. Буза 

Паралельн! обчислення на графчних процесорах 

Розглядаеться один 13 щдходв скорочення часу обчислень добре розпаралелювальних алгоритма, заснований 
на сумсним використанн! класичних та графлчних процесор!в. Наводиться анал1з ефективност! тако! 
органзацй обчислень та з’ясовуються «вузьк!» мсця. На конкретних прикладах показуються можливост! 
подбного тандема та формулюються вимоги до алгоритмав для {х ефектного використання. 


Статья поступила в редакцию 04.07.2011. 
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